数据来源 [Cortez et al., 2009].
P. Cortez, A. Cerdeira, F. Almeida, T. Matos and J. Reis. Modeling wine preferences by data mining from physicochemical properties.
In Decision Support Systems, Elsevier, 47(4):547-553. ISSN: 0167-9236.
## [1] 1599 12
## 'data.frame': 1599 obs. of 12 variables:
## $ fixed.acidity : num 7.4 7.8 7.8 11.2 7.4 7.4 7.9 7.3 7.8 7.5 ...
## $ volatile.acidity : num 0.7 0.88 0.76 0.28 0.7 0.66 0.6 0.65 0.58 0.5 ...
## $ citric.acid : num 0 0 0.04 0.56 0 0 0.06 0 0.02 0.36 ...
## $ residual.sugar : num 1.9 2.6 2.3 1.9 1.9 1.8 1.6 1.2 2 6.1 ...
## $ chlorides : num 0.076 0.098 0.092 0.075 0.076 0.075 0.069 0.065 0.073 0.071 ...
## $ free.sulfur.dioxide : num 11 25 15 17 11 13 15 15 9 17 ...
## $ total.sulfur.dioxide: num 34 67 54 60 34 40 59 21 18 102 ...
## $ density : num 0.998 0.997 0.997 0.998 0.998 ...
## $ pH : num 3.51 3.2 3.26 3.16 3.51 3.51 3.3 3.39 3.36 3.35 ...
## $ sulphates : num 0.56 0.68 0.65 0.58 0.56 0.56 0.46 0.47 0.57 0.8 ...
## $ alcohol : num 9.4 9.8 9.8 9.8 9.4 9.4 9.4 10 9.5 10.5 ...
## $ quality : Factor w/ 6 levels "3","4","5","6",..: 3 3 3 4 3 3 3 5 5 3 ...
## fixed.acidity volatile.acidity citric.acid residual.sugar
## Min. : 4.60 Min. :0.1200 Min. :0.000 Min. : 0.900
## 1st Qu.: 7.10 1st Qu.:0.3900 1st Qu.:0.090 1st Qu.: 1.900
## Median : 7.90 Median :0.5200 Median :0.260 Median : 2.200
## Mean : 8.32 Mean :0.5278 Mean :0.271 Mean : 2.539
## 3rd Qu.: 9.20 3rd Qu.:0.6400 3rd Qu.:0.420 3rd Qu.: 2.600
## Max. :15.90 Max. :1.5800 Max. :1.000 Max. :15.500
## chlorides free.sulfur.dioxide total.sulfur.dioxide
## Min. :0.01200 Min. : 1.00 Min. : 6.00
## 1st Qu.:0.07000 1st Qu.: 7.00 1st Qu.: 22.00
## Median :0.07900 Median :14.00 Median : 38.00
## Mean :0.08747 Mean :15.87 Mean : 46.47
## 3rd Qu.:0.09000 3rd Qu.:21.00 3rd Qu.: 62.00
## Max. :0.61100 Max. :72.00 Max. :289.00
## density pH sulphates alcohol quality
## Min. :0.9901 Min. :2.740 Min. :0.3300 Min. : 8.40 3: 10
## 1st Qu.:0.9956 1st Qu.:3.210 1st Qu.:0.5500 1st Qu.: 9.50 4: 53
## Median :0.9968 Median :3.310 Median :0.6200 Median :10.20 5:681
## Mean :0.9967 Mean :3.311 Mean :0.6581 Mean :10.42 6:638
## 3rd Qu.:0.9978 3rd Qu.:3.400 3rd Qu.:0.7300 3rd Qu.:11.10 7:199
## Max. :1.0037 Max. :4.010 Max. :2.0000 Max. :14.90 8: 18
是否有空值
## [1] FALSE
由直方图直观感受,红酒质量应该符合正态分布,验证如下
红酒质量确实 符合正态分布, 质量特别好的红酒和质量特比差的红酒数量相对较少。最多的是质量中等的红酒。
- 酒精浓度分布左偏。
- 酒精浓度集中在9%~12%之间,符合红酒为低度酒的直观感受。
- 酒精浓度分布比较集中,过高过低酒精含量的红酒都比较罕见。
使用log酒精浓度分布依然为左偏分布。
## Min 2.5% 25% 50% 75% 97.5% Max
## 8.4 9.1 9.5 10.2 11.1 12.8 14.9
95%的红酒中的酒精浓度分布在9.1~12.8之间。
## isNormal method
## "FALSE" "Two-sample Kolmogorov-Smirnov test"
## alternative p.value
## "two-sided" "1.528e-10"
p-value<0.05, 酒精浓度 不符合正态分布
- 硫酸盐添加剂分布左偏。
- 硫酸盐添加剂分布右侧有长尾,尝试log转换。
Log转换后硫酸盐添加剂分布左偏有所改善,但分布依然不是很对称。
## Min 2.5% 25% 50% 75% 97.5% Max
## 0.33 0.44 0.55 0.62 0.73 1.08 2.00
95%的红酒中的硫酸盐添加剂分布在0.44~1.08之间。
## isNormal method
## "FALSE" "Two-sample Kolmogorov-Smirnov test"
## alternative p.value
## "two-sided" "3.138e-05"
硫酸盐添加剂, 使用log转换,依然 不是正态分布。
- 红酒pH主要集中在3~3.6之间,总体低于4,有较强酸性。
- pH分布比较对称,接近正态分布。
## Min 2.5% 25% 50% 75% 97.5% Max
## 2.7400 3.0195 3.2100 3.3100 3.4000 3.6105 4.0100
95%的红酒中的pH分布在3.02~3.61之间, 大部分红酒有较强酸性。
## isNormal method
## "TRUE" "Two-sample Kolmogorov-Smirnov test"
## alternative p.value
## "two-sided" "0.05398"
p-value>0.05, pH 符合正态分布
- 红酒密度分布接近正态分布。
- 大多数红酒的密度低于1。
## Min 2.5% 25% 50% 75% 97.5% Max
## 0.990070 0.992939 0.995600 0.996750 0.997835 1.000400 1.003690
密度与水十分接近,存在微小的差距。
## isNormal method
## "TRUE" "Two-sample Kolmogorov-Smirnov test"
## alternative p.value
## "two-sided" "0.07139"
p-value>0.05, 密度 符合正态分布
- 二氧化硫分布左偏。
- 二氧化硫分布右侧有长尾。
- 尝试log转换。
- 使用log调整后,二氧化硫分布不再左偏。
- 使用公式验证是否为正态分布。
## Min 2.5% 25% 50% 75% 97.5% Max
## 6 10 22 38 62 131 289
95%的红酒中二氧化硫含量集中在10~131之间。
## isNormal method
## "TRUE" "Two-sample Kolmogorov-Smirnov test"
## alternative p.value
## "two-sided" "0.2616"
p-value>0.05, 使用 log 调整后的二氧化硫分布, 符合正态分布。
- 硫元素的离子分布左偏,右侧有长尾。
- 尝试log调整。
log调整后硫元素的离子分布不再左偏,略有右偏。
## Min 2.5% 25% 50% 75% 97.5% Max
## 1.000 3.000 7.000 14.000 21.000 40.525 72.000
95%的红酒中带硫元素的离子含量在3.00~40.53之间。
## isNormal method
## "FALSE" "Two-sample Kolmogorov-Smirnov test"
## alternative p.value
## "two-sided" "0.001775"
p-value<0.05, log调整后,硫元素的离子含量依然 不符合正态分布。
- 非挥发性酸分布略左偏,右侧有长尾
- 尝试log调整。
- log调整后,非挥发性酸分布不再左偏。
- 依然不是非常对称。使用公式检验是否正态分布。
## Min 2.5% 25% 50% 75% 97.5% Max
## 4.6 5.6 7.1 7.9 9.2 12.5 15.9
95%的红酒中非挥发性酸含量在5.6~12.5之间。
## isNormal method
## "FALSE" "Two-sample Kolmogorov-Smirnov test"
## alternative p.value
## "two-sided" "5.14e-05"
p-value<0.05, log调整后, 非挥发性酸依然 不是正态分布
- 挥发酸略左偏,右侧有长尾。
- 左偏幅度不大,尝试sqrt调整。
- sqrt调整后挥发酸分布不再偏斜,但依然不是很对称。
- 使用公式验证是否为正态分布。
## Min 2.5% 25% 50% 75% 97.5% Max
## 0.120 0.240 0.390 0.520 0.640 0.915 1.580
95%的红酒挥发酸的含量主要集中在0.24~0.92
## isNormal method
## "TRUE" "Two-sample Kolmogorov-Smirnov test"
## alternative p.value
## "two-sided" "0.1207"
p-value>0.05, sqrt 调整后,挥发酸分布 符合正态分布。
- 柠檬酸在0和0.5附近,有两个极值。
- 柠檬酸含量普遍比较低。
## Min 2.5% 25% 50% 75% 97.5% Max
## 0.00 0.00 0.09 0.26 0.42 0.66 1.00
95%的红酒柠檬酸的含量集中在0.00~0.66
- 剩余糖分分布,左偏,有长尾。
- 大部分红酒的剩余糖分比较低,说明红酒是低糖饮品。
- 尝试log调整。
log调整后,剩余糖分分布依然左偏,有长尾。
## Min 2.5% 25% 50% 75% 97.5% Max
## 0.9 1.4 1.9 2.2 2.6 6.3 15.5
95%的红酒剩余糖分的含量集中在1.4~6.3
## isNormal method
## "FALSE" "Two-sample Kolmogorov-Smirnov test"
## alternative p.value
## "two-sided" "< 2.2e-16"
log 调整后,剩余糖分依然 不是正态分布。
- 红酒含盐量分布左偏,有长尾。
- 红酒含盐量普遍较低,是低盐饮品。
- 尝试log调整。
- log调整后,含盐量左偏有所改善,但右侧依然有长尾。
- 使用公式验证是否为正态分布。
## Min 2.5% 25% 50% 75% 97.5% Max
## 0.012 0.048 0.070 0.079 0.090 0.205 0.611
95%的红酒含盐量集中在0.048~0.205
## isNormal method
## "FALSE" "Two-sample Kolmogorov-Smirnov test"
## alternative p.value
## "two-sided" "2.021e-14"
p-value<0.05, log调整后,含盐量依然 不是正态分布
相关性大于0.4:
- quality & alcohol: 0.476
- alcohol & density: -0.496
- density & fixed.acidity: 0.668
- citric.acid & fixed.acidity: 0.672
- total.sulfur.dioxide & free.sulfur.dioxide : 0.668
- pH & fixed.acidity: -0.683
- pH & citric.acid: -0.542
- 评分较低的红酒,质量和酒精含量相关度较弱
- 评分5以上的红酒,酒精含量和质量呈正相关。
- 红酒质量评分低于7时,挥发酸含量越低,红酒质量越高
- 红酒质量评分为7、8时,挥发酸含量影响不大
- 总体而言,挥发性酸和红酒质量负相关
由图可知,酒精浓度越高,密度越低
由图可知,非挥发性酸含量越高,密度越大
由图可知,非挥发性酸含量越高,柠檬酸含量越高
由图可知,二氧化硫含量越高,硫元素离子含量越高
由图可知,非挥发性酸越高,pH越低
由图可知,柠檬酸越高,pH越低
- 不同质量的红酒, 酒精含量和密度均呈负相关。
- 不同质量红酒的线性拟合直线有交叉,说明酒精含量和密度相对红酒质量找不到相关性
- 不同质量的红酒,非挥发性酸和密度都呈现正相关
- 质量最高的红酒,密度均小于1
- 由线性化拟合可以观察到,质量较好的红酒分布在相对密度较低区域
- 质量评分较高的红酒拟合直线,没有交叉,说明对质量评分高于5的红酒,综合考虑非挥发性酸和密度,非挥发性酸含量相同时,密度和红酒质量呈负相关
- 不同质量的红酒,非挥发性酸和柠檬酸均呈正相关。
- 除去评分为3的红酒,其他质量的红酒在非挥发性酸相同情况下,质量平分和柠檬酸呈正相关。
- 质量评分为3的红酒,非挥发性酸和柠檬酸的拟合直线斜率和其他质量评分的拟合直线差异较大,破坏了整体柠檬酸和质量的相关性。
- 不同质量的红酒,二氧化硫含量和硫离子含量正相关,符合直观感受。
- 不同质量拟合直线由交叉,说明二氧化硫和硫离子相对红酒质量评分找不到相关性。
- 不同质量的红酒,非挥发性酸和pH值负相关,符合直观感受。
- 不同质量的拟合直线交叉,说明非挥发性酸和pH值相对红酒质量,找不到相关性。
- 不同质量的红酒,酒精含量和挥发性酸含量相关度差异较大。即总体而言,酒精含量和挥发性酸含量找不到相关性。
- 在整个酒精含量较低,挥发性酸含量较高区域,集中了评分最低的红酒。
- 在酒精含量相对较高挥发酸含量较低区域,集中分布了评分较高的红酒。
大部分评分集中在5和6,高分低分都比较少。
较高质量的红酒有相对较高的酒精浓度。
- 不同质量的红酒,酒精含量和挥发性酸含量相关度差异较大。,即总体,酒精含量和挥发性酸含量找不到相关性。
- 在整个酒精含量较低,挥发性酸含量较高区域,集中了评分最低的红酒。
- 在酒精含量相对较高挥发酸含量较低区域,集中分布了评分较高的红酒。
整个分析过程主要围绕红酒质量和与他相关度较高的几个变量进行分析,分析过程中也分析了一些其他的变量。
始终没有发现某一化学物质和红酒质量有强相关性。初步分析时由于挥发性酸和质量间的相关性为0.39<0.4,没有分析这个变量,后来尝试分析,得到更多有意义的结论。
分析过程,不必要有精确条件才开始分析,接近的条件,也可尝试分析。
分析过程中直接数据找不到相关性时,可以尝试均值,拟合线。
多变量分析时,开始是将不同质量的红酒对应的散点图分开画,虽然每个质量的范围比较明确,但由于拟合直线分别画在不同图形中,失去了对比。开始没有找到均值之间的关系。当拟合之间画在同一个图形中,对比明显,更容易得到比较结论。
本次探索仅有1599条记录,如果后续有更多记录,可以更加精确测试数据间的相关性,尝试建立质量预测模型。